北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。
作为首批入选印度“IndiaAI Mission”国家级项目、承担构建印度主权基础大模型任务的公司之一,Sarvam AI 近日发布了名为 Sarvam-M 的模型。这是一个基于 Mistral Small 构建的 240 亿参数、权重开放的混合语言模型。
当 AI 同时拥有了耳朵和眼睛,在未来硬件创新的支持下,还将解放更大的创新潜力。
进入2025年以来, AI Agent的发展明显提速。5月6日,OpenAI宣布以30亿美元收购 Windsurf;编程工具Cursor的母公司Anysphere也获得了9亿美元的融资,估值高达90亿美元;号称中国第一个通用AI Agent的Manus在五月也获得了硅谷老牌风险投资公司Benchmark领投的7500万美元的融资;
TL;DR:如果您有一个AI产品,用户问您这是AI Agent还是Agentic AI?如果您回答不出来,或者认为这两个概念是一回事,那您可能需要重新审视自己的技术认知了。不过没关系,因为99%的人都不知道,现在您只需要看完这篇文章就可以了。
AI 火了之后,我就想问:有谁还没有用过 AI?
2002年,在拿下中国高校第一个ACM(计算机领域最顶尖的程序设计大赛)金牌后,上海交大设立了“ACM班”,这个用最高竞赛命名的班级后来人尽皆知,成为中国AI人才的重要阵地。也在那年,李磊成为ACM班第一届的学生。在ACM班他第一次意识到,“原来计算机能帮助解决人类的这么多问题。”
随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。
Character AI 是个不合时宜的故事,不再多聊。
与其说有几个框架主导了整个生态系统,不如说我们将看到更多的可组合、栈特定的生成方式,其中工具和架构可以动态组合。